Celem niniejszego projektu jest zbadanie wielowymiarowych zależności między spożyciem alkoholu, towarzyszącym mu stylem życia a wynikami w nauce (GPA) oraz funkcjonowaniem poznawczym studentów uniwersyteckich. Problem ten jest istotny ze względu na powszechność kultury picia w środowisku akademickim i jej potencjalnie negatywny wpływ na karierę edukacyjną. Analiza opiera się na danych ankietowych obejmujących zmienne demograficzne, ekonomiczne (stypendia, zakwaterowanie), społeczne (relacje z rodzicami) oraz behawioralne (częstotliwość imprezowania, absencja na zajęciach). W toku prac dane poddano czyszczeniu oraz imputacji, aby zapewnić rzetelność wnioskowania statystycznego.
W ramach analizy postawiono następujące pytania badawcze, mające na celu zgłębienie mechanizmów rządzących badanym zjawiskiem:
allowance) stymuluje intensywniejsze życie
towarzyskie, pośrednio wpływając na obniżenie wyników w nauce?W tym etapie surowe dane ankietowe zostały poddane standaryzacji i transformacji, aby umożliwić ich dalszą analizę statystyczną. Wykonano następujące operacje:
sex, grade_12, drinks),
zastępując długie pytania z kwestionariusza (Tabela 1).grade_last_y) nie są błędem, lecz wynikają ze struktury
badania (brak historii studiowania). Zostało to uwzględnione w procesie
czyszczenia.| Nazwa zmiennej | Opis zmiennej |
|---|---|
| sex | Płeć respondenta |
| grade_12 | Średnia ocen z 12 klasy (GPA) |
| last_year | Rok studiów w roku 2023 |
| faculty | Kierunek studiów |
| grade_last_y | Średnia ocen za rok akademicki 2023 |
| accomodation | Status zakwaterowania (prywatne vs publiczne) |
| allowance | Miesięczny budżet |
| scholarship | Czy student posiadał stypendium |
| studying | Dodatkowe godziny nauki tygodniowo |
| partying | Częstotliwość wychodzenia na imprezy |
| drinks | Liczba drinków spożywanych jednej nocy |
| classes_missed | Liczba zajęć opuszczonych przez alkohol |
| modules_failed | Liczba niezdanych przedmiotów |
| relationship | Czy student jest w związku |
| parents_alcohol_approval | Czy rodzice akceptują spożywanie alkoholu |
| relationship_w_parents | Relacja z rodzicami |
Przed przystąpieniem do imputacji (uzupełniania) danych,
przeprowadzono wizualną inspekcję brakujących wartości przy użyciu
pakietów naniar i ggmice. Pozwoliło to na
podjęcie kluczowych decyzji:
sex (płeć), faculty (wydział) oraz
last_year (rok studiów). Zmienne te definiują profil
studenta i są trudne do wiarygodnego, sztucznego odtworzenia.Pozostałe braki danych (w zmiennych takich jak
allowance, scholarship czy
grades) uzupełniono, wykorzystując algorytm
k-Nearest Neighbors (kNN). Metoda ta polega na
znalezieniu dla każdej niepełnej obserwacji grupy najbardziej podobnych
do niej studentów (“sąsiadów”) i uzupełnieniu braku na podstawie ich
danych.
Dobór parametru \(k=5\):
Zdecydowano się na ustawienie parametru liczby sąsiadów na \(k=5\). Jest to optymalny kompromis:
Dla zmiennej grade_last_y zastosowano podejście
hybrydowe: imputacja została przeprowadzona, a następnie skorygowana
logicznie dla studentów pierwszego roku, aby nie przypisywać im
sztucznych ocen z okresu, gdy nie studiowali.
W celu potwierdzenia poprawności działania algorytmu wygenerowano
wykresy typu stripplot dla zmiennych allowance oraz
accommodation. Zdecydowaliśmy się akurat na te zmienne ze
względu na to, że tylko one mają braki na poziomie co najmniej 5%
(oprócz braków strukturalnych w grade_12).
Wybrano zestawienie tych kategorii ze zmienną grade_12,
aby sprawdzić, czy wartości uzupełnione (zaznaczone na czerwono)
naturalnie wpisują się w rozkład danych oryginalnych. Brak wyraźnych
skupisk punktów imputowanych poza chmurą danych zaobserwowanych
potwierdza, że proces uzupełniania nie wprowadził zniekształceń do
struktury zbioru.
W tej sekcji postaraliśmy się odpowiedzieć na pytanie badawcze czy wyższy dochód rozporządzalny stymuluje intensywniejsze życie towarzyskie?
Aby umożliwić obiektywne porównanie grup, wprowadzono dwa parametry analityczne:
partying): 0–4 pkt
(w tym wartość 1.5 dla “Only weekends”).drinks): 0–9
pkt.Wizualizacja wykorzystuje metodę estymacji gęstości jądrowej (2D Kernel Density). Skala kolorystyczna wskazuje na stopień koncentracji obserwacji w danej przestrzeni.
Podsumowanie: Wyższy status ekonomiczny działa jako katalizator życia towarzyskiego. Zwiększając dostępność kosztownych rozrywek, staje się on pośrednim czynnikiem ryzyka dla wyników akademickich poprzez wyraźną zmianę priorytetów czasowych studenta.